WORK IN PROGRESS
1 tl;dr
In diesem Modul lernen Sie das Handwerk der Prognose: Auf Basis von Fakten (Daten) den (noch unbekannten) Wert einer Zielvariablen vorherzusagen. Zum Beispiel wieviel Umsatz von einem Kunden mit einem bestimmten Profil im Schnitt zu erwarten ist. Damit lernen Sie die Grundkompetenzen zum Berufsbild Data Scientist – ein angesagtes Berufsbild unserer Zeit. Außerdem lernen Sie etwas Handwerkszeug der (quantitativen) Forschung; der überwältigend große Teil der Forschung basiert auf Ideen, von denen Sie ein paar in diesem Kurs lernen.
3 Modulliteratur
Ein Teil der Literatur ist über viele Hochschulbibliotheken als PDF herunterladen; andere Titel sind offen im Unternet verfügbar. Oft müssen Sie per VPN angemeldet sein für Volltextzugriff, wenn Sie nicht auf dem Campus sind.
- Zentrale Begleitlektüre ist Sauer (2019).
- Weiterführende Literatur (nicht zwingend nötig, aber ggf. nützlich): Wickham and Grolemund (2018) und Çetinkaya-Rundel and Hardin (2021).
- Um grundlegende Mathekenntnisse aufzufrischen ist Knorrenschild (2021, Kap. 1-3 und 4.1-4.2) empfehlenswert.
4 Vorbereitung vor dem Kurs
4.1 Installation von R und seiner Freunde
- Installieren Sie R und seine Freunde.
- Installieren Sie die folgende R-Pakete:
- tidyverse
- weitere Pakete werden im Unterricht bekannt gegeben (es schadet aber nichts, jetzt schon Pakete nach eigenem Ermessen zu installieren)
4.2 Lernhilfen
-R Syntax aus dem Unterricht findet sich im Github-Repo bzw. Ordner zum jeweiligen Semester. - Frag-Jetzt-Raum zum anonymen Fragen stellen während des Unterrichts. Der Keycode wird Ihnen vom Dozenten bereitgestellt. - Padlet zum einfachen (und anonymen) Hochladen von Arbeitsergebnissen der Studentis im Unterricht. Wir nutzen es als eine Art Pinwand zum Sammeln von Arbeitsbeiträgen. Die Zugangsdaten stellt Ihnen der Dozent bereit.
4.3 Daten
- Saratoga Houses
5 Themen
5.1 Grundbegriffe
5.1.1 Lernziele
- Sie kennen zentrale Begriffe im Kontext der Datenanalyse.
- Sie können den Unterschied zwischen Signal und Rauschen erklären.
- Sie können zentrale Kompetenzen im Berufsfeld Data Science nennen.
5.1.2 Literatur
- MODAR Kap. 1
5.1.3 Folien
5.1.4 Videos
5.1.5 Syntax
5.1.6 Vertiefung
- Berufsbild Data Scientist
- Video: Data Science vs. Statistics
- Zehn unverzichtbare Fertigkeiten für jeden Data Scientist
- Data Science Memes
- Data Science und das Scharnier zwischen Theorie und Praxis
- Data Science Skills
- Anatomie von Data Science
- Infografik Data Scientist
- Video: Learning from eight years of data science mistakes
- Hilfe zur Installation von R und RStudio
5.2 ERRRstkontakt
5.2.1 Lernziele
- Sie können R starten (installieren).
- Sie wissen, was R-Pakete sind und können sie installieren und starten.
- Sie können grundlegende Operationen in R durchführen, wie Variablen zuweisen und auslesen.
5.2.2 Literatur
- MODAR Kap. 2-4
5.3 Datenimport
5.3.1 Lernziele
- Sie können Daten (verschiedener Formate) in R importieren.
- Sie kennen einige Datenstrukturen in R.
5.3.2 Literatur
MODAR Kap. 5-6
5.3.3 Videos
5.4 Datenjudo
5.4.1 Lernziele
- Sie können Daten in R aufbereiten mit dem Tidyverse.
5.4.2 Literatur
- MODAR Kap. 7
5.4.3 Videos
5.4.4 Vertiefung
5.5 Deskriptive Statistik
5.5.1 Lernziele
- Sie beherrschen grundlegende Operationen der univariaten deskriptiven Statistik sowohl für Lage- als auch Streuungsmaße.
- Sie verstehen die Grundkonzepte der Korrelation und können diese in R berechnen.
5.5.2 Literatur
- MODAR Kap. 8
5.6 Praxisprobleme der Datenaufbereitung
5.6.1 Lernziele
- Sie wissen mit typischen Problemen der Datenaufbereitung umzugehen, wie mit fehlenden Werten, Datenanomalien oder Formatänderung der Tabelle.
- Sie kennen die grundlegenden Eigenschaften der Normalverteilung.
5.6.2 Literatur
- MODAR Kap. 9
5.6.3 Videos
5.7 Datenvisualisierung
5.7.1 Lernziele
- Sie können Daten visualisieren, um wesentliche Einsichten zu vermitteln.
5.7.2 Literatur
MODAR Kap. 11
5.7.3 Videos
5.8 Fallstudie-EDA
5.8.1 Lernziele
- Sie können die gelernten Techniken der explorativen Datenanalyse praktisch anwenden.
5.8.2 Literatur
- NA NA
5.8.3 Videos
5.8.4 Fallstudien
5.9 Modellieren
5.9.1 Lernziele
- Sie verstehen die Methoden des Modellierens.
5.9.2 Literatur
- MODAR Kap. 15
5.10 Regression
5.10.1 Lernziele
- Sie verstehen die Grundkonzepte der Regression und können diese in R anwenden.
5.10.2 Literatur
- MODAR Kap. 18
5.10.3 Videos
5.11 Klassifikation
5.11.1 Lernziele
- Sie verstehen die Grundkonzepte der logistischen Regression und können diese in R anwenden.
5.11.2 Literatur
- MODAR Kap. 19
5.12 Fallstudie-Regression
5.12.1 Lernziele
- Sie können die gelernten Techniken der Regressionsanalyse praktisch anwenden.
5.12.2 Literatur
- NA NA
5.12.3 Videos
5.12.4 Fallstudien
5.13 Fallstudie-Modellieren
5.13.1 Lernziele
- Sie können die gelernten Techniken de Modellierens in der Statistik praktisch anwenden.
5.13.2 Literatur
- NA NA
5.13.3 Videos
6 Prüfung
6.1 Was ist das für eine Prüfung?
Bei der Prüfung handelt es sich um einen Prognosewettbewerb.
Vorhersagen sind eine praktische Sache, zumindest wenn Sie stimmen. Wenn Sie den DAX-Stand von morgen genau vorhersagen können, rufen Sie mich bitte sofort an. Genau das ist Ihre Aufgabe in dieser Prüfungsleistung: Sie sollen Werte vorhersagen.
Etwas konkreter: Stellen Sie sich ein paar Studentis vor; von allen wissen Sie, wie lange die Person für die Statistikklausur gelernt hat. Außerdem wissen Sie die Motivation jeder Person und vielleicht noch ein paar noten-relevante Infos. Und Sie wissen die Note jeder Person in der Statistikklausur. Auf dieser Basis fragt sie ein Student (Alois), der im kommenden Semester die Prüfung in Statistik schreiben muss will: “Sag mal, wenn ich 100 Stunden lerne und so mittel motiviert bin, welche Note kann ich dann erwarten?”. Mit Hilfe Ihrer Analyse können Sie diese Frage beantworten. Natürlich könnten Sie es sich leicht machen und antworten: “Mei, der Notendurchschnitt war beim letzten Mal 2.7. Also ist das kein ganz doofer Tipp für deine Note.” Ja, das keine doofe Antwort, aber man kann es besser machen. Da hilft Ihnen die Statistik (doch, wirklich).
Kurz gesagt gehen Sie so vor: Importieren Sie die Daten in R, starten Sie die nötigen R-Pakete und schauen Sie sich die Daten unter verschiedenen Blickwinkeln an. Dann nehmen Sie die vielversprechendsten Prädiktoren in ein Regressionsmodell und schauen sich an, wie gut die Vorhersage ist. Wiederholen Sie das ein paar Mal, bis Sie ein Modell haben, das Sie brauchbar finden. Mit diesem Modell sagen Sie dann die Noten der neuen Studis (Alois und Co.) vorher. Je genauer Ihre Vorhersage, desto besser ist Ihr Prüfungsergebnis.
6.2 Hinweise zur Prüfung
- Hinweise zur Prüfung
- Einfache, beispielhafte Vorhersagemodellierung (Video)
- Der gesamte Stoff, der im Unterricht behandelt bzw. für den Kurs bereitgestellt ist, ist prüfungsrelvant. Eine Ausnahme ist, wenn bestimmte Inhalte explizit als “nicht prüfungsrelevant” gekennzeichnet sind.
- Denken Sie daran, sich rechtzeitig zu den Prüfungsleistungen anzumelden. Beachten Sie, dass die Fristen für Anmeldung und Abgabe (Hochladen der Prüfungsleistung) unterschiedlich sein können.
7 Literaturverzeichnis
Çetinkaya-Rundel, M. and J. Hardin (2021). Introduction to Modern Statistics. OpenIntro. OpenIntro.
Knorrenschild, M. (2021). Vorkurs Mathematik: ein Übungsbuch für Fachhochschulen. 5., aktualisierte Auflage. Mathematik - Studienhilfen. Hanser. 164 pp.
Sauer, S. (2019). Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren und modellieren. 1. Auflage 2019. FOM-Edition. Springer.
Wickham, H. and G. Grolemund (2018). R für Data Science: Daten importieren, bereinigen, umformen, modellieren und visualisieren. Trans. by F. Langenau. 1. Auflage. O’Reilly. 473 pp.
8 Kudos
Beim Schreiben dieses Kurses habe ich auf der Vorarbeit vieler Menschen aufgebaut. Viele Menschen haben mich unterstützt, großzügig und auf verschiedene Weise.
Einige möchte ich herausgreifen, um Danke zu sagen:
- Kollegis wie Karsten Lübke, von denen ich viel gelernt habe.
- Alle Open-Source-Entwickler, die Projekte wie dieses überhaupt erst möglichen machen. 💌